AI资讯新闻榜单内容搜索-SWE-BENCH

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO，出现反转！表面上看，“御三家”集体翻车，没一家的解决率超过25%： GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。

来自主题: AI技术研报

11125 点击 2025-09-22 16:11

多模态BUG修复新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而，如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近，随着 SWE-bench 团队发布最新的多模态 Issue 修复

来自主题: AI技术研报

8322 点击 2025-09-16 10:01

「开发者私下更喜欢用GPT-5写代码」，Claude还坐得稳编程王座吗？

一直以来，Anthropic 的 Claude 被认为是处理编程任务的最佳模型，尤其是本月初发布的 Claude Opus 4.1，在真实世界编程、智能体以及推理任务上表现出色。其中在软件编程权威基准 SWE-bench Verified 测试中，Claude Opus 4.1 相较于前代 Opus 4 又有提升，尤其在多文件代码重构方面表现出显著进步。

来自主题: AI资讯

9463 点击 2025-08-27 18:09

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分，对比之下，Anthropic的Claude完成全部500题。

来自主题: AI资讯

8327 点击 2025-08-21 15:05

GPT-5编程成绩有猫腻！自删23道测试题，关键基准还是自己提的

别急着用GPT-5编程了，可能它能力没有你想象中那么强。有人发现，官方测试编程能力用的SWE-bench Verified，但货不对板，只用了477个问题。

来自主题: AI资讯

8710 点击 2025-08-12 17:07

从Debugger到Developer : 低代码时代新基准NoCode-bench，SWE-Bench作者力荐

当前，大型语言模型（LLM）在软件工程领域的应用日新月异，尤其是在自动修复 Bug 方面，以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而，软件开发远不止于修 Bug，功能开发与迭代才是日常工作的重头戏。

来自主题: AI技术研报

8314 点击 2025-08-08 17:01

AI修Bug新SOTA：SWE-Bench Lite60.33%修复率，像人一样能积累经验，中科院软件所出品

AI学会像人一样修Bug了！“这个Bug我上周刚修过”“这个报错怎么又来了”“新人怎么又在同一个地方踩坑”……

来自主题: AI技术研报

7723 点击 2025-08-08 12:08

北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA

近日，一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究，提出了一种名为「SWE-Swiss」的完整「配方」，旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的 32B 参数模型 SWE-Swiss-32B，在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率，在同尺寸级别中达到了新的 SOTA。

来自主题: AI技术研报

7938 点击 2025-08-08 10:43

Kimi超过DeepSeek的新模型被指“套壳”Qwen？到底怎么回事儿

昨天深夜，月之暗面发布了开源代码模型Kimi-Dev-72B。这个模型在软件工程任务基准测试SWE-bench Verified上取得了60.4%的成绩，创下开源模型新纪录，超越了包括DeepSeek在内的多个竞争对手。

来自主题: AI资讯

7982 点击 2025-06-18 11:20

Kimi新模型拿下代码开源SOTA，仅仅72B，发布即开源

深夜，沉寂已久的Kimi突然发布了新模型—— 开源代码模型Kimi-Dev，在SWE-bench Verified上以60.4%的成绩取得开源SOTA。

来自主题: AI资讯

10456 点击 2025-06-17 11:34